大型语言模型(LLM)革命性的自然语言处理(NLP)应用程序正在扩展到多模式输入的领域。由于它们解释图像的影响,多模式LLMS(MLLM)主要用于视觉任务。当前,MLLM尚未扩展到针对特定领域的视觉任务,这需要对视觉信息有更明确的理解。我们开发了一种将特定于域的视觉和视觉语言数据集形成的方法中的统一问题答案格式,称为视觉询问回答指令(VQA-IN),从而将MLLM扩展到特定于域的任务。使用较小版本的LLMS(SLLMS),将VQA-IN应用于训练多个MLLM架构。实验结果表明,所提出的方法在域特定的视觉任务上达到了高分度量,同时还以多任务方式保持其在视觉任务上的性能。
主要关键词
![arxiv:2402.08360v1 [cs.cv] 2024年2月13日PDF文件第1页](/bimg/5/53e31b52be0b6a992628ab75482511cf3189be94.webp)
![arxiv:2402.08360v1 [cs.cv] 2024年2月13日PDF文件第2页](/bimg/e/e2d0370f0e64e0b0e2e0c18a91ba77eb4c74e296.webp)
![arxiv:2402.08360v1 [cs.cv] 2024年2月13日PDF文件第3页](/bimg/0/08be6d3b5062882f1088f1d07f7e892af26a075e.webp)
![arxiv:2402.08360v1 [cs.cv] 2024年2月13日PDF文件第4页](/bimg/8/8ec7af22f51a3ed96635f6ce1d7a2d3060992911.webp)
![arxiv:2402.08360v1 [cs.cv] 2024年2月13日PDF文件第5页](/bimg/1/19738797dbd8fab61009a72c33a67f365cb7ffc7.webp)
